使用 Florence2 語言模型來看圖產生說明

使用 Florence2 語言模型來看圖產生說明

下載外掛節點

在 ComfyUI 裡面,開啟 Manager > Custom Nodes Manager。在左上角的搜尋欄位輸入想要的外掛名稱,安裝即可

搜尋 Florence2
安裝 ComfyUI-Florence2 這個外掛

什麼是 Florence2?

Florence2 是 Microsoft 開發出來的視覺語言模型 VLM。用來處理影像、物件及相關文字(OCR) 的任務

Florence-2 is an advanced vision foundation model that uses a prompt-based approach to handle a wide range of vision and vision-language tasks.

我們可以在 ComfyUi 裡面套用 Florence2 這個模型來幫我們辨識圖片,產生這個圖片的文字描述,當作我們繪圖的 Prompt 來進行繪圖。

記住,這樣的方式是 Text 2 Image 文字生成圖片;而不是 Image 2 Image 圖片生成圖片。


圖片內容辨識程度

我們需要的是 caption 內容說明,不同的模型、不同的 task 任務,說明的內容都不相同。
以森林柯基這張圖片為例。以下是 Gemma 3 LLM 自動翻譯作爲資料參考:

Florence2-01.jpg|500

Florence 2 base

Florence 2 large ft

Florence 2 Flux Large

Florence 2 large PromptGen-v2.0

原文如下

Florence 2 base

Florence 2 large ft

Florence 2 Flux Large

Florence 2 large PromptGen-v2.0


References